#alineación de valores

MoReBench: Evaluando el razonamiento moral en modelos de lenguaje

Descubre MoReBench: 1,000 escenarios morales para evaluar el razonamiento procedural y pluralista de los modelos de lenguaje.

2026-06-12 · 2 min

VALUEFLOW: Alineación pluralista y dirigible basada en valores en LLMs

Descubre VALUEFLOW, el primer marco unificado para extraer, evaluar y controlar la intensidad de valores en LLMs. Mejora la alineación pluralista.

2026-06-08 · 1 min

Moderación eficiente de LLMs con prototipos latentes multicapa

MLPM, moderador ligero basado en prototipos latentes multicapa, mejora la seguridad de LLMs sin sacrificar eficiencia. Ideal para despliegues personalizados.

2026-06-03 · 1 min

Alineación controlable de valores en LLMs mediante edición a nivel neuronal

Descubre cómo NeVA alinea valores en LLMs con edición neuronal, evitando fugas indeseadas. Control fino sin reentrenamiento.

2026-06-02 · 2 min

RoleCDE: Evaluación y mitigación de conflictos rol-alineación

RoleCDE es el primer benchmark que mide cómo los agentes de rol resuelven dilemas entre valores específicos y alineación. ¡Aprende a mitigar el desacople de roles!

2026-06-02 · 2 min

Mecanismos duales de expresión de valores: intrínsecos vs. inducidos en LLMs

Exploramos cómo los LLMs expresan valores mediante mecanismos intrínsecos e inducidos, y su rol en la alineación y seguridad.

2026-06-01 · 1 min